We present Muse, a text-to-image Transformer model that achieves state-of-the-art image generation performance while being significantly more efficient than diffusion or autoregressive models. Muse is trained on a masked modeling task in discrete token space: given the text embedding extracted from a pre-trained large language model (LLM), Muse is trained to predict randomly masked image tokens. Compared to pixel-space diffusion models, such as Imagen and DALL-E 2, Muse is significantly more efficient due to the use of discrete tokens and requiring fewer sampling iterations; compared to autoregressive models, such as Parti, Muse is more efficient due to the use of parallel decoding. The use of a pre-trained LLM enables fine-grained language understanding, translating to high-fidelity image generation and the understanding of visual concepts such as objects, their spatial relationships, pose, cardinality etc. Our 900M parameter model achieves a new SOTA on CC3M, with an FID score of 6.06. The Muse 3B parameter model achieves an FID of 7.88 on zero-shot COCO evaluation, along with a CLIP score of 0.32. Muse also directly enables a number of image editing applications without the need to fine-tune or invert the model: inpainting, outpainting, and mask-free editing. More results are available at https://muse-model.github.io
translated by 谷歌翻译
我们审查当前的解决方案和技术挑战,以实现自动语音识别,关键字发现,设备仲裁,语音增强和在多边形家庭环境中的来源本地化,以为Interspeech 2022特别会议提供背景,“信号处理和机器学习的挑战和机器,用于多个智能设备”。我们还确定了支持这些研究领域所需的数据集。根据评论和我们在多设备领域的研究经验,我们以对未来进化的前景结论
translated by 谷歌翻译
现代深度学习需要大规模广泛标记的数据集进行培训。少量学习旨在通过有效地从少数标记的例子中学习来缓解这个问题。在先前提出的少量视觉分类器中,假设对分类器决定的特征歧管具有不相关的特征尺寸和均匀特征方差。在这项工作中,我们专注于通过提出以低标签制度运行的差异敏感的模型来解决这一假设引起的限制。第一种方法简单的CNAP,采用基于分层正规的Mahalanobis距离基于距离的分类器,与现有神经自适应特征提取器的状态相结合,以在元数据集,迷你成像和分层图像基准基准上实现强大性能。我们进一步将这种方法扩展到转换学习设置,提出转导压盖。这种转换方法将软k-means参数细化过程与两步任务编码器相结合,以实现使用未标记数据的改进的测试时间分类精度。转导CNAP在元数据集上实现了最先进的性能。最后,我们探讨了我们的方法(简单和转换)的使用“开箱即用”持续和积极的学习。大规模基准的广泛实验表明了这一点的鲁棒性和多功能性,相对说话,简单的模型。所有培训的模型检查点和相应的源代码都已公开可用。
translated by 谷歌翻译
我们介绍了扬声器本地化问题的变种,我们呼叫设备仲裁。在设备仲裁问题中,用户将由多个分布式麦克风阵列(智能家居设备)检测到的关键字,并且我们希望确定哪个设备最接近用户。我们提出了一个端到端机器学习系统而不是解决完整的本地化问题。该系统了解在每个设备上独立计算的功能嵌入。然后,每个设备的嵌入式聚合在一起以产生最终的仲裁决策。我们使用大规模的房间模拟来生成培训和评估数据,并将系统与信号处理基线进行比较。
translated by 谷歌翻译
智慧城市利益的最新全球增长导致了数万亿美元用于研发的投资。这些连接的城市有可能建立技术和社会的共生,并在全球范围内彻底改变社会的生活,安全,生态可持续性和生活质量。智能城市结构的一些关键组成部分是连接的智能电网,自动驾驶汽车,联合学习系统,智能公用事业,大规模的公共交通和积极的监视系统。尽管前景令人兴奋,但如果不解决这种高度自动化和数据共享的潜在社会影响,这些技术及其后续集成就无法尝试。此外,协调如此多的不同任务的可行性将需要一个快速,可扩展,统一的框架。为此,我们提出了Faro2,这是一个完全重新构想的Faro1的继任者,它是从头开始建造的。 FARO2提供了与其前身相同的功能,它充当统一的生物识别API线束,可为异构生物识别软件提供无缝评估,部署和简单的管道创建。 FARO2还提供了完全声明的功能来定义和协调自定义机器学习和传感器管道,从而使过程在原本不兼容的硬件和网络中分布。 Faro2最终提供了一种方法,可以在线快速配置,热门塑料和扩展大型协调或联合系统,而不会中断维护。由于在智能城市中收集的许多数据都包含个人识别信息(PII),因此FARO2还提供内置工具和层,以确保跨分布式系统跨系统的安全和加密的流媒体,存储和访问PII数据。
translated by 谷歌翻译
基于分数的分歧已被广泛用于机器学习和统计应用。尽管他们的经验成功,但在将它们用于多模式分布时仍观察到了失明问题。在这项工作中,我们讨论了失明问题,并提出了一个新的分歧家庭,可以减轻失明问题。在密度估计的背景下,我们说明了我们提出的差异,与传统方法相比,报告的性能提高了。
translated by 谷歌翻译
已知DNN容易受到所谓的对抗攻击的攻击,这些攻击操纵输入以引起不正确的结果,这可能对攻击者有益或对受害者造成损害。最近的作品提出了近似计算,作为针对机器学习攻击的防御机制。我们表明,这些方法虽然成功地用于一系列投入,但不足以解决更强大,高信任的对抗性攻击。为了解决这个问题,我们提出了DNNShield,这是一种硬件加速防御,可使响应的强度适应对抗性输入的信心。我们的方法依赖于DNN模型的动态和随机稀疏来有效地实现推理近似值,并通过对近似误差进行细粒度控制。与检测对抗输入相比,DNNShield使用稀疏推理的输出分布特征。当应用于RESNET50时,我们显示出86%的对抗检测率为86%,这超过了最先进的接近状态的检测率,开销较低。我们演示了软件/硬件加速的FPGA原型,该原型降低了DNNShield相对于仅软件CPU和GPU实现的性能影响。
translated by 谷歌翻译
预测,预测了大量的机器人和人为辅助任务。 NASA为了解这些天体的地质和构成的努力在很大程度上取决于机器人臂的使用。当人类与机器人探险家一起工作时,安全性和冗余方面至关重要。此外,机器人臂对于卫星维修和计划的轨道碎片缓解任务至关重要。这项工作的目的是创建一个基于自定义的计算机视觉(CV)的人工神经网络(ANN),该神经网络将能够快速识别从单个(RGB-D)的7度自由(DOF)机器人组的姿势图像 - 就像人类可以轻松识别手臂是否指向一定方向一样。 Sawyer机器人臂用于开发和培训这种智能算法。由于Sawyer的关节空间涵盖了7个维度,因此覆盖整个联合配置空间是一项无法克服的任务。在这项工作中,使用类似于Taguchi方法的正交阵列,以有效地跨越关节空间,以最少的训练图像数量。该生成的数据库用于训练自定义ANN,其准确度平均等于数据库生成使用的最小关节位移步骤的两倍。预先训练的ANN将有助于估计在太空站,航天器和流浪者作为辅助工具或应急计划上使用的机器人操纵器的姿势。
translated by 谷歌翻译
机器人和人类月球着陆是未来NASA任务的重点。精确着陆功能对于确保任务的成功以及着陆器和机组人员的安全至关重要。在进入表面的方法中,存在与危险相对导航相关的多个挑战,以确保安全着陆。本文将重点介绍被动自主危害检测和避免子系统,以对指导系统的可能着陆区进行初步评估。该系统使用单个摄像头和Mobilenetv2神经网络体系结构来检测和辨别安全的着陆点和危险,例如岩石,阴影和陨石坑。然后,来自运动的单眼结构将重新创建表面以提供斜率和粗糙度分析。
translated by 谷歌翻译
这项工作利用MobileNETV2卷积神经网络(CNN)快速,移动检测卫星和拒绝恒星,在混乱的未解决的空间图像中。首先,使用合成卫星图像程序中的图像创建自定义数据库,并在卫星上标记为“卫星阳性”图像的框架框。然后在此数据库上训练CNN,并通过在由真实望远镜图像构建的外部数据集上检查模型的准确性来验证推理。在此过程中,训练有素的CNN提供了一种快速卫星识别方法,可在基于地面的轨道估计中使用。
translated by 谷歌翻译